该论文为罗马尼亚语提供了一个开放域的答案系统,回答了Covid-19相关问题。QA系统管道涉及自动问题处理,自动查询生成,Web搜索前10个最相关的文档,并使用用于提取质量质量质量质量质量质量质量的BERT模型回答提取,并在我们手动创建的COVID-19数据集上进行了培训。该论文将介绍质量检查系统及其与罗马尼亚语言技术的集成,COVID-19数据集以及对质量检查性能的不同评估。
translated by 谷歌翻译
由于从大规模预先训练的语言模型的转移学习在自然语言处理中普遍存在,在计算受限环境中运行这些模型仍然是一个具有挑战性的问题。已经提出了包括知识蒸馏,网络量化或网络修剪的几种解决方案;然而,这些方法主要关注英语,从而在考虑低资源语言时扩大差距。在这项工作中,我们为罗马尼亚语推出了三种轻型和快速版本的罗马尼亚语言:Distil-Bert-Base-Ro,Distil-Robert-Base和DistilMulti-Bert-Bas-Ro。前两种模型因单独蒸馏在文献中提供的两个基础版本的罗马尼亚伯爵的知识,而最后一个是通过蒸馏它们的集合来获得的。为了我们的知识,这是第一次尝试创建公开可用的罗马尼亚蒸馏BERT模型,这是在五个任务上进行彻底评估的:语音标记,名为实体识别,情感分析,语义文本相似性和方言识别。这些基准测试的实验结果证明,我们的三种蒸馏模型在与老师的准确性方面保持最大的表现,而GPU的两倍于GPU和〜35 \%较小。此外,我们进一步测试了我们的学生和他们的老师之间的相似性,通过测量其标签和概率忠诚度以及回归忠诚度 - 在这项工作中引入的新指标。
translated by 谷歌翻译
接受社会辅助机器人的基本功能之一是其与环境中其他代理商的通信能力。在Robin项目的背景下,调查了通过与机器人的语音互动的情境对话。本文介绍了具有深度神经网络的不同语音识别实验,专注于生产快速(从网络本身的100ms延迟下),而仍然可靠的型号。即使关键所需特性之一是低延迟,最终的深度神经网络模型也能实现识别罗马尼亚语的最新状态,以获得9.91%的字错误率(WER),当与语言模型相结合,从而改善以前的结果同时提供了改进的运行时性能。此外,我们探索了两个模块,用于校正ASR输出(连字符和大写恢复和未知单词校正),针对Robin项目的目标(在封闭的微观世界中对话)。我们根据API设计模块化架构,允许整合引擎(机器人或外部)根据需要将可用模块链接在一起。最后,我们通过将其集成在相关平台中并通过上传文件或录制新的语音来测试所提出的设计。
translated by 谷歌翻译
本文介绍了来自Robin项目的新罗马尼亚语音语料库,称为Robin技术获取语音语料库(Rocintasc)。其主要目的是提高会话代理的行为,允许人机互动在购买技术设备的背景下。本文包含采集过程的详细描述,语料库统计信息以及对低延迟ASR系统以及对话组件的语料库影响的评估。
translated by 谷歌翻译
自动学习的单词矢量表示,也称为“Word Embeddings”,正在成为越来越多的自然语言处理算法的基本构建块。有不同的方式和工具来构建Word Embeddings。大多数方法依赖于原始文本,施工项目是单词出现和/或字母n-grams。更详细的研究正在使用文本预处理后提取的额外语言特征。通过原始文本和字母n-gram构建的矢量表示,形态学明显地提供了形态。语法和语义研究可以从与每个单词相关联的诸如引理,语音,语法或语义依赖的其他特征(如引物)构建的矢量表示,更多。 Reterom项目的一个主要目标之一是开发罗马尼亚自然语言处理的先进技术,包括文本的形态,句法和语义分析。因此,我们计划开发开放式大型库的即用的Word Embeddings集合,每个设置的特征在于不同的参数:使用的特征(Wordforms,字母N-gram,Lemmas,Pose等),矢量长度,窗口/上下文大小和频率阈值。为此,先前创建了Corola语料库上的Word Embeddings集(基于Word Imperience)(p \ u {a} i \ c {s}和tufi \ c {s},2018)是进一步增强的通过使用lemmas和言论之类的特定功能,从相同的语料库中学到了新的陈述。此外,为了更好地理解和探索向量,图形表示将通过自定义接口提供。
translated by 谷歌翻译
确保适当的标点符号和字母外壳是朝向应用复杂的自然语言处理算法的关键预处理步骤。这对于缺少标点符号和壳体的文本源,例如自动语音识别系统的原始输出。此外,简短的短信和微博的平台提供不可靠且经常错误的标点符号和套管。本调查概述了历史和最先进的技术,用于恢复标点符号和纠正单词套管。此外,突出了当前的挑战和研究方向。
translated by 谷歌翻译
这项工作提出了利用对机器人周围环境的逐步改善的象征感知知识的一步,以证明适用于自动驾驶问题的正确反应性控制合成。结合了运动控制和信息收集的抽象模型,我们表明假设保证规范(线性时间逻辑的子类)可用于定义和解决谨慎计划的流量规则。我们提出了一种新颖的表示,称为符号改进树,以捕获有关环境的增量知识,并体现了各种符号感知输入之间的关系。利用增量知识来合成机器人的验证反应性计划。案例研究表明,即使在部分遮挡的环境中,拟议方法在合成控制输入方面的疗效。
translated by 谷歌翻译
在基于学术和行业的研究中,在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然,这样做的原因是,我们可以直接测量依赖干预措施的实用程序指标,这是向用户显示的建议。然而,由于多种原因,在线评估方法是昂贵的,并且对于可靠的离线评估程序仍然存在明确的需求。在行业中,离线指标通常被用作一线评估,以生成有前途的候选模型来在线评估。在学术工作中,对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标:基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关,而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里,我们表明基于模拟的比较为离线指标提供了前进的方向,并认为它们是可取的评估手段。
translated by 谷歌翻译
本文提出了一种转移学习方法,以重新校准我们先前开发的车轮探针神经网络(WHONET),以在全球导航卫星系统(GNSS)不可用的环境中进行车辆定位。已显示WHONET具有学习车轮速度测量中不确定性的能力,以校正和准确的车辆定位。这些不确定性可能表现为轮胎压力从泥泞和不平坦的地形或车轮滑动中的驾驶变化。但是,关注数据驱动方法(例如WHONET模型)的共同原因通常是无法将模型推广到新车。在机器学习模型在特定领域进行培训但部署在另一个领域的情况下,该模型的性能降低了。在现实生活中,从变化到车辆的动力学到传感器噪声的新模式分布,有几个因素对这种降解有影响,偏见会使测试传感器数据的数据因训练数据而异。因此,挑战是探索允许训练有素的机器学习模型自发适应新车辆域的技术。因此,我们提出了重新校准的轮循环神经网络(R-WHONET),该神经网络将WHONET模型从其源域(最初训练该模型的车辆和环境)适应到目标域(一种新车辆,在其上进行了训练)。训练有素的模型将被部署)。通过在几个GNSS中断场景上进行性能评估 - 短期复杂驾驶方案以及长期GNSS中断方案。我们证明,在源域中训练的模型并不能很好地推广到目标域中的新车辆。但是,我们表明,我们的新提议的框架将WHONET模型对目标域中的新车辆的概括提高了32%。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译